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Підвищення ефективності паралельного 
розв'язання лінійної задачі Коші на основі 
методу рекурсивного множення матриць 


Запропоновано масштабований паралельний метод матричного добутку на основі систолічного та 
рекурсивного алгоритмів, який дозволяє підвищити ефективність розв'язання лінійної задачі Коші на 
основі експоненціального методу. Для розробленого алгоритму визначено оптимальні значення глибини 
рекурсії і розміру мінімального блоку перемножуваних матриць. Розроблено схеми відображення 
методу на паралельні структури з розподіленою пам'яттю топології сітка/тор. 


Вступ 


Дослідження, викладені у статті, присвячені розробці 1 аналізу ефективності пара- 
лельних методів розв'язання задачі Коші для систем лінійних звичайних диференціальних 
рівнянь (СЛЗДР) із вбудованими засобами оцінки локальної похибки. Зокрема, запропо- 
новані спеціальні методи вирішення однорідних і неоднорідних СЛЗДР з постійними 
коефіцієнтами. Як показали дослідження, урахування специфіки задачі дозволяє отримати 
більш ефективні паралельні обчислювальні алгоритми, ніж у випадку стандартних чи- 
сельних схем. 

Експоненціальний метод відноситься до спеціальних методів чисельного інтегру- 
вання початкової задачі Коші для СЛЗДР, заснований на точному представленні розв'язку 
в аналітичній формі і наближеному обчисленні матричної експоненти (1). У загальному 
вигляді задачу Коші для однорідних СЛЗДР з постійними коефіцієнтами можна записати 
таким чином: 


У(х)54:У(х), 1) 
Ух) Уд. 4 сопзі, ( 
де Уз(урУзезУт й - вектор невідомих, 
уд З (Ур9»У20»нз Уто а вектор початкових умов, 
Аз, 


тами. 
Точний розв'язок задачі Коші виду (1) потребує обчислення матричної експо- 
ненти: 


, І, ) - І, т - матриця коефіцієнтів лінійної системи, елементи якої є констан- 


а 


Ух чл)се" ЗРО 


ба в(н)з УМХ а) 
із0 В 
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Наближений розв'язок на кроці можна побудувати, використовуючи апроксимацію 
матричної експоненти відрізком ряду Тейлора при малому значенні Й: 


Утаі 7 В(ВА): У, 
вн) є У СА2, 2) 
ї«0 | В 


а потім застосувати деякий алгоритм множення матриць. 


Паралельний блоковий рекурсивно-систолічний метод 
матричного добутку 


Матричний добуток (МД) - домінуюча обчислювальна частина експоненціальних 
методів розв'язання СЗДР із вбудованими засобами оцінки локальної похибки. Тому 
прискорення паралельної реалізації цієї базової операції лінійної алгебри означає змен- 
шення терміну виконання методу вирішення лінійної задачі у цілому. При величезній 
різноманітності методів обчислення матричного добутку |2-5| для щільно заповнених 
матриць є два принципово різних класи послідовних алгоритмів: традиційні і рекур- 
сивні методи на базі швидкого множення Штрассена |6-8|. У оригіналі алгоритм 
Штрассена - це алгоритм множення блокових матриць половинного розміру, де кожен 
блок квадратний, тобто розмірності матриць мають бути парними числами. Метод 
Штрассена - Винограда |7| складається з 7 блокових множень 1 15 блокових скла- 
даньдвіднімань матриць (рис. 1). 


5 з 434», Міо, Тра Му ЯМ, 
52 25134 М ЗАВ, Тз Ту) я Му, 
53 2427412 М3 з 4282 Тз З М Мб, 
54 3 41275» Ма 2536», | Сіра Мо я Мо, 
55 2 Ві2- Ві, Му 2555, | Су Є-Т ЄТУ, 
56 5822755 Ме 55482 Ср 2-7, - М», 
57 2 8225-82 Му з 4568, С» З Ту Му, 


53 256 - Ві»; 
(ще в-( ціа с-(сщезу, 
Аз А» Во В С С» 


Рисунок І - Метод швидкого множення матриць Штрассена - Винограда 


Ідея Штрассена може бути застосована рекурсивно для знаходження добутків бло- 
ків матриць М,,і «17. Якщо початкові матриці 4 і В порядку т, то алгоритм 
швидкого множення можна використовувати багато разів, отримуючи на найнижчому рі- 
вні рекурсії блоки Кх К - Гх І. Проте немає необхідності опускатися униз до рівня блоків 
одиничного порядку. При досить малих розмірах блоку (К «Кін 
корисним обчислювати блоки, використовуючи стандартний алгоритм МД. На першому 
кроці алгоритм передбачає 7 звернень до самого себе з матрицями порядку т / 2 і 15 
операцій типу складання матриць того ж порядку. Далі йде розгортка рекурсії до досяг- 
нення мінімального розміру блоку і множення блоків за традиційним алгоритмом 
матричного множення. Обчислювальна складність запропонованої схеми алгоритму швид- 
кого множення визначається функцією розмірності початкових матриць і мінімального 


порядку перемножуваних блоків: т, К 


) може виявитися 


тіпс 
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Нехай при виконанні матричного множення алгоритм Штрассена - Винограда ре- 
курсивно викликався а раз, тоді порядок блоків матриць, що множаться, дорівнює 


Китпіт/ 24. Час реалізації послідовного алгоритму при цьому складає: 


4 я 
Ті (т )з 42 она Ж дв 


Відомий паралельний алгоритм класичного методу Штрассена був застосований на 
Іпіе! Рагаєоп 1 показав добрі результати порівняно з традиційними алгоритмами МД |е-ті. 
Істотним недоліком цього алгоритму є відсутність масштабованості, оскільки необ- 
хідне число процесорів для нього кратно сімці (по кількості множень блоків матриць 


М .,і з 17 ). Це обмеження є достатньо жорстким 1 не природним для більшості пара- 


лельних архітектур. 

Для подолання вказаного недоліку скористаємося поліалгоритмічним підходом. Під 
поліалгоритмом мається на увазі комбінація двох або більш алгоритмів в одну обчис- 
лювальну схему, що реалізує поставлену задачу з метою скорочення обчислювальних 
і/або ємкісних витрат. Алгоритм швидкого множення рекурсивний, тому є можливість 
побудувати поліалгоритм з деякого традиційного алгоритму множення матриць на 
верхньому рівні рекурсії 1 методу Штрассена - Винограда на нижньому рівні, і навпаки. 
Алгоритм Штрассена є блоковим, тому природньо комбінувати його з алгоритмом мат- 
ричного добутку, що використовує відповідне розбиття даних. Побудуємо поліалгоритм З 
блокового систолічного алгоритму матричного множення між процесорами і серії вжи- 
вань рекурсивного методу Штрассена на кожному процесорі. 

Нехай є замкнута двовимірна сітка процесорів розмірності р х р, початкові матриці 
А ї В розподілені на блоки К е т/ р, кількість блоків дорівнює дха ерх р. Блоки 
початкових матриць і результату з координатами «і, / » зберігаються у відповідному 
процесорі з тими ж координатами. Як і раніше, передбачаємо, що т тоа р 0, інакше 
використовується доповнення нульовими елементами. Спочатку, за обчислювальною 
схемою блокового систолічного множення, виконується косе зрушення вліво по рядках 
для блоків матриці 4 1 косе зрушення вгору по стовпцях для блоків матриці В. На кож- 
ному з р кроків алгоритму проводиться множення блоків матриць 4 і В, що збері- 
гаються в процесорі з номером, 1 складання з вже обчисленим значенням блоку матриці 
Су, розташованим на цьому ж процесорі. Для першого кроку це значення дорівнює 


нульовому блоку. Потім проводиться одиночне зрушення вліво по рядках паралельно для 
всіх блоків матриці 4: Аз А ух і одиночне зрушення вгору по стовпцях також пара- 


лельно для всіх блоків матриці В: В, «-В., | ;, Множення блоків матриць виконується усе- 


Її) 
редині одного процесора за рекурсивним алгоритмом, що дозволяє уникнути додаткових 
пересилок даних. На нижньому рівні рекурсії застосовується стандартний алгоритм 
множення матриць, глибина рекурсії дорівнює а. Розроблений алгоритм є таким, що 
масштабується для будь-якого числа процесорів і будь-якого порядку матриць, що 
множаться. Час реалізації блокового рекурсивно-систолічного алгоритму включає час 
виконання арифметичних 1 обмінних операцій: 
т т зір ном, ур дес 
При цьому час виконання обчислень за схемою дорівнює: 


Вуз | 
Т рсотр -У Та; х Вії Та узВу у 
г 
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де Т ух ву ЧАС МНОЖеННЯ блоків матриць порядку К-т/р за рекурсивним алгорит- 
І 


мом; Т, АВ - чай / вч час складання блоків матриць тієї же розмірності. 


Час виконання множення блоків виконується за алгоритмом Штрассена - Вино- 
града і задовольняє рекурентному співвідношенню: 


Е єї 
оті Зм Ку 


У свою чергу, час реалізації алгоритму для матриць порядку Х / 2,..., К / Р 


відповідно дорівнює: 
б 
фіг Кк як фіг Кк Кк 
т тт; ві) й 


з 


2 
Ку Кк - Ку Кк Кк 
Рот АЮ 


Виконавши підстановки і елементарні перетворення, отримаємо: 


СНО По ФО СЮ р СОРТ 
То (К)е7 Тр Е Із ще ог 


24 
До цих пір була визначена обчислювальна складність розгортки рекурсії. Розгля- 
немо внутрішній рівень рекурсії, оскільки саме там виконуються операції множення 
блоків матриць мінімального порядку за стандартним методом матричного множення: 


3 
М: к 
іа РЕ Ко а) "ор: 


Таким чином, час реалізації швидкого рекурсивного множення блоків матриць 
задля мультикомп'ютера складає: 


74 
тт (к)-|2 а аз Пи 4 
З 8 4 1-2 й 


Тоді загальний час виконання арифметичних операцій для комбінації блоко- 
вого систолічного алгоритму 1 рекурсивного матричного множення дорівнює: 


а а 
аби іх 42) т, 42) ТО. 
рсотр 8 р 


Час обмінних операцій для описаної схеми визначається, як і для блокового 
систолічного алгоритму: 


Рай ой -«4(р-1Д Ї, Ту : 
р 
Очевидно, що динамічні характеристики паралельних обчислювальних схем мат- 
ричного добутку залежать від співвідношення між числом процесорів і розмірністю 
матриць. Для рекурсивного алгоритму множення матриць істотним параметром є також 


величина глибини рекурсії, а (рис. 2-4). 
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Їз Бизначення оптимального значення глибини рекурсії ») 
вола | іпюі1 у очі2, 2ч ти (ГочГ8 / 71)1 - БочГ2, (5 « Бої 7 7415111 


Ток | 2 т оц 2-1) - Боє 5 Боч| 2 1) 
оре - Воший| - У 
о 21 

Пре - НІ п. / 27723) - 8 


Рисунок 2 - Визначення оптимального значення глибини рекурсії 
для рекурсивного алгоритму МД 


Визначення оптимальної величини глибини рекурсії, а отже, і розмірності міні- 
мального оброблюваного блоку матриць, що множаться, проводилося стандартним 
математичним апаратом в пакеті Маїетаїса. Для цього необхідно знайти значення, що 


доставляє мінімум функції Т зай причому діапазон зміни глибини рекурсії обмеже- 


ний наступною нерівністю: (Кіл - (т/ 28 )- Із т»2 4 «І09» т. Очевидно, що 
при великих розмірностях СЛЗДР кожна з функцій Иа)єтії Пор Рис. 3 має явно 
виражений локальний мінімум, відношення ж розмірності системи до глибини 


рекурсії при цьому залишається постійним. Наприклад, при т - 1024, ані 77 1 


т / 2Чтіп о 1024/1128 - 8, а при т-256 маємо 4, 25 зат/2Чтіл -8, У той же 


час при т Іб мінімальна глибина рекурсії дорівнює 1, тобто для досягнення 
мінімуму обчислювальних витрат необхідно виконати всього один крок розгортки 
рекурсії, для т - 2 розгортки рекурсії немає, оскільки а,,,, 20. 


тіп 


тіп 


т. 8.45 
7.55 8.4 
Фо 
2 1.5 є аЕ 
б б 
| 3 
а т.аБ пово 
с о 
Я м 
т.а 8.25 
7.25 8.8 Ек 
й 2 4 б 8 0 ї 4 Б з 
а а 
4.2 
10.15 
4.25 
зеаа З 10.1 
ото 2 10.05 шо2048 
- 
т 
9-15 то 10 
а - 
Мк 
ЧУ чої 9.95 
9.05 7.з ЕЗ 
й рі З й й Б а 2 а Б 8 10 
а 4 


Рисунок 3 - Обчислювальна складність рекурсивно-систолічного алгоритму 
від глибини рекурсії у логарифмічному масштабі 
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Аналітичні результати підтверджуються результатами експериментів, на рис. 4 на- 
ведено залежність часу виконання матричного добутку від величини блоку матриць, що 
перемножуються. 


Тівес Порядок матриць щоз512 
150 
125 
100 
75 
50 
25 


Кк 


2 4 8 16 32 64 128 268 
Рисунок 4 - Експериментальне визначення величини мінімального 
блоку для рекурсивно-систолічного алгоритму множення матриць 


Для паралельного варіанта запропонованого алгоритму блокового рекурсив- 
но-систолічного множення окрім глибини рекурсії необхідно врахувати співвід- 
ношення між числом процесорів, р і розмірністю матриць, т (рис. 5). Обмеження 


на діапазон зміни глибини  рекурсії визначаються наступною нерівністю: 


їни З - Із» а«іоя з " При оцінюванні глибини рекурсії часові ха- 
2 р Р Р 

рактеристики наведені до часу реалізації однієї операції з плаваючою точкою, для 

різних мультикомп'ютерів величина оптимальної глибини рекурсії має бути поправ- 

лена з врахуванням цієї машинно-залежної константи. 


|» Визначення оптинального значення глибини рекурсії »| 


рр - Вомл| 5іпр11 бу Поч 2, 2чт/ри (оці / 7151 - Тоці2, (5 «Тоці Я / 413111 


п | пон тов 21) 
5 4 


гоці21 


1оч| 
рр 2 Воші | 


(т / ЮЗере з ви ЗРО 


Рисунок 5 - Визначення величини оптимальної глибини рекурсії 
для паралельного блокового рекурсивно-систолічного алгоритму 


Аналіз аналітичних виразів, що характеризують динамічні характеристики якості 
паралельних алгоритмів, а також проведений чисельний експеримент, дозволяють зро- 
бити наступні висновки: 

1) паралельний блоковий метод рекурсивно-систолічного множення матриць воло- 


ВзузоЗІГ 
Тр 


діє меншою асимптотичною Т; нар Й о (8/ 7 і реальною, підтверджуваною екс- 


периментальним шляхом, тимчасовою складністю порівняно з найбільш відомими тради- 
ційними паралельними алгоритмами множення матриць (рис. 6); 

2) динамічні характеристики запропонованого алгоритму на основі швидкого мно- 
ження перевершують відповідні характеристики стандартних аналогів, особливо для 
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матриць великих розмірностей, при цьому коефіцієнти прискорення і ефективності 
зростають із зростанням розмірності задачі: т Т -»5 Т-ь Е Ї ізменшуються із зростанням 
числа процесорів р 7-55 Е (рис. 7). 
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Рисунок 6 - Співвідношення тривалостей реалізації паралельних методів 
стандартного 1 рекурсивно-систолічного матричного добутку 
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Рисунок 7 - Коефіцієнти ефективності паралельного блокового 
рекурсивно-систолічного методу для мультикомп'ютерів 
з шириною процесорної сітки, рівною р 


Крім того, рекурсивний характер розробленого алгоритму дозволяє звести багато- 
вимірну початкову задачу до вирішення підзадач меншої розмірності 1, за рахунок вико- 
ристання швидкої пам'яті комп'ютера, досягти прискорення операції матричного добутку. 
До недоліків цього підходу слід віднести дещо гіршу чисельну стійкість, хоча і достатню 
для більшості практичних задач |9-10). 


Висновки 


Чисельний експеримент на основі тестів для СЗДР та проведений порівняльний 
аналіз динамічних характеристик паралельних методів розв'язання лінійної задачі Коші 
продемонстрував, що запропоновані експоненціальні методи мають меншу тимчасову 
складність порівняно зі стандартними аналогами. Крім того, розроблений паралельний 
алгоритм на основі комбінації швидкого рекурсивного 1 систолічного алгоритмів матрич- 
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Підвищення ефективності паралельного розв язання лінійної задачі Коші... ян 


ного добутку дозволив підвищити ефективність паралельного розв'язання лінійної задачі, 
як для МІМІ, так 1 для кластерних архітектур з розподіленою пам'яттю та топологією 
двовимірний тор. Використання розробленого рекурсивно-систолічного методу дозво- 


а ПЕРОІБЕЧИ. ї, 5. 
лило в (8 ді ) , 4 - 1,2... раз прискорити виконання цієї найбільш ресурсоємної операції 


при вирішенні лінійних СЗДР на основі експоненти. 

Перспективним напрямком дослідження є застосування рекурсивно-систолічного 
блокового методу множення матриць у розв'язанні нелінійної задачі Коші для блокових 
багатоточкових неявних методів, що дозволить підвищити ефективність вирішення 
жорстких динамічних задач. 
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туроюмт 


И.А. Назарова 

Повьшение зффективности параллельного решения линейной задачи Коши на основе метода 
рекурсивного умножения матриц 

Предложен масштабируемьй параллельньй метод матричного умножения на основе систолического 
и рекурсивного алгоритмов, которьшй позволяєт повьтить зффективность решения линейной задачи 
Коши на основе зкспоненциального метода. Для предложенного метода определено оптимальное 
значение глубинь рекурсий и минимальноєе значение блока перемножаємьх матриц. Разработаньт 
схемью отображения метода на параллельньюе структурью с распределенной памятью и топологиєей 
решетка/тор. 


І.А. Масагоуа 

Тпе Віге ої Ейісіепсу ої РагаПе! Десізіоп ої І іпеаг СапсПу"8 Ргобіет оп Не Ва5зіз ої Меїнодй ої 
Весиг5іує Маїгісе5є Миніріїсайоп 

Тре 8саїабіє рагайе! плеїпод ої плайтіх плиїпрісайоп 15 оїегед оп їБе Ба5і5 ої 5узіоПс апа гесиг5іуе 
аїдогійртя, у"біср аПом/5 о ргоглоїє еййсієпсу ої Фесізіоп ої Ппеаг Сайсру'яє ргобіет оп Бе Базі5 ої 
ехропепіа! теїподй. Еог Фе обегед теїрод Бе оріїтит уаїе ої деріб ої гесиг5їоп апа птіпітит уаїше ої 
ЬосК ої Ше пийрпей таїгісез 15 сегіаїп. Тре зспете5 ої гейесйоп ої пеїродй аге десусіорей оп рагаїсі 
5гасбиге8 лів Бе дїбіршоеай тетогу апа іороіову ої птезрЛоги58. 


Стаття надійшла до редакції 10.07.2008. 
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